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摘要 :【 目的 ] 针对 路 语言 信息 检索 存在 的 查询 漂移 问题 ， 提 出 一 种 融合 用 户 点 击 下 载 行为 与 矩阵 加 权 关 联 模 式 
挖掘 的 印尼 中 跨 语 言 信息 检索 模型 。[ 方法 ] 将 和 矩阵 加 权 关联 模式 挖掘 、 查 询 扩展 以 及 用 户 点 击 下 载 行为 集成 应 
用 到 印尼 中 跨 语言 信息 检索 模型 ,给 出 模型 实现 的 关键 技术 ， 即 面向 跨 语言 信息 检索 的 矩阵 加 权 关 联 模 式 挖 所 
算法 、 跨 语言 查询 扩展 模型 以 及 印尼 中 跨 语言 信息 检索 算法 。[ 结果 ] 在 NTCIR-5 CLIR 数据 集 上 的 实验 结果 表 
明 , 该 检索 模型 的 R_prec、p@10 和 p@20 值 均 达到 单 语言 检索 基准 的 60% 以 上 ， 比 跨 语言 检索 基准 提高 37% 以 
上 ， 比 现 有 基于 伪 相 关 反馈 的 跨 语 言 检索 算法 提高 28% 以 上 。[ 局 限 ] 该 模型 实验 在 基于 向 量 空间 模型 的 跨 语言 
检索 系统 中 进行 ， 需 要 探讨 和 研究 在 实际 搜索 引擎 中 的 具体 应 用 。[ 结论 】 该 模型 能 有 效 地 减少 跨 语言 检索 中 的 
查询 漂移 问题 ， 提 高 和 改善 印尼 中 路 语言 检索 性 能 ， 对 长 查询 的 检索 效果 更 好 ， 有 较 好 的 实际 应 用 价值 。 
关键 词 : 点 击 行为 ”关联 模式 挖掘 印尼 中 路 语言 检索 模型 ”路 语言 信息 检索 ”和 矩阵 加 权 关 联 规则 
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近年 来 ,， 基于 查询 扩展 的 跨 语言 信息 检索 研究 得 到 了 更 
多 的 关注 和 讨论 , 其 研究 主要 集中 在 基于 相关 反馈 9、 
跨 语言 信息 检索 指 的 是 以 一 种 语言 检索 出 其 他 语 。” 潜在 语义 、 语 言 模型 中 和 主题 模型 0 等 跨 语言 信 
言 的 信息 资源 的 技术 。 印 尼 中 跨 语言 信息 检索 指 的 是 使 。 息 检索 研究 , 其 语言 对 象 以 英语 为 主 , 大 多 都 是 研究 英 
用 印尼 语 检索 中 文 文档 , 其 中 ,用 于 查询 的 印尼 语言 称 ” 语 和 其 他 语言 的 跨 语言 检索 问题 。 
为 源 语言 (Source Language，SL)， 中 文 称 为 目标 语言 基于 相关 反馈 的 蜂 语 言 信 息 检 索 即 利用 跨 语 言 初 
(Target Language，TL)。 世 界 各 地 学 者 从 不 同 的 角度 和 丛 结 果 的 前 列 文档 作为 跨 语言 查询 扩展 词 项 的 来 源 实 
方向 对 路 语言 信息 检索 模型 与 算法 进行 了 深入 探讨 和 现 查询 扩展 , 然后 再 次 检索 文档 。 其 典型 算法 是 Gao 
研究 , 取得 了 丰富 的 理论 成 果 , 然而 , 跨 语 言 信 息 检 索 。 ”等 中 提出 的 两 步 伪 相 关 反 馈 法 。 吴 丹 等 中 在 此 基础 上 对 
研究 所 存在 的 问题 还 没有 完全 解决 , 该 领域 吸 待 解决 ” 基于 伪 相 关 反 馈 的 跨 语言 查询 扩展 进行 深入 研究 , 通 
和 关注 度 比 较 高 的 问题 之 一 是 跨 语 言 信息 检索 比 单 语 。 过 伪 相 关 反馈 实验 比较 4 种 跨 语言 信息 检索 查询 翻译 
言 检索 面临 更 为 严重 的 词 不 匹配 和 主题 漂移 问题 , 这 ”优化 技术 中 取得 较 好 的 研究 成 果 。 近 年来, Chinnakotla 
些 问题 常常 导致 跨 语言 检索 性 能 低下 。 针 对 这 些 问 题 ， 等 外 提出 使 用 与 查询 不 同 的 辅助 语言 材料 改善 跨 语 言 
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伪 相 关 反 馈 扩展 性 能 ,以 提高 跨 语言 检索 效率 。Parton 
等 将 机 器 学 习 引 入 跨 语言 相关 反馈 扩展 领域 ,Lee 等 
针对 博客 或 论坛 等 非 正式 文本 , 提出 一 种 新 的 伪 相 关 
反馈 扩展 技术 改善 跨 语言 检索 性 能 ,都 取得 了 良好 的 
实验 结果 。 

基于 潜在 语义 的 跨 语言 信息 检索 即 利用 潜在 语义 
分 析 技 术 建立 不 同 语言 之 间 的 对 应 关系 ,从 中 发 现 与 
原 查 询 相关 的 目标 语言 特征 词 ,实现 跨 语言 查询 扩展 ， 
改善 跨 语言 信息 检索 性 能 。 其 典型 算法 是 闭 剑 婷 等 外 
提出 的 通过 潜在 语义 分 析 的 跨 语 言 查 询 扩展 改善 跨 语 
言 检索 性 能 。 魏 露 等 外 对 文献 [7] 进 行 改进 , 通过 结合 
奇异 值 分 解 和 非 负 和 矩阵 分 解法 建立 双语 空间 ,改善 跨 
语言 检索 性 能 ,此 后 , 宁 健 等 中 通过 改进 的 潜在 语义 分 
析 实 现 双 语 摘要 跨 语言 检索 ， 取得 了 较 好 的 实验 结 
果 。 罗 远 胜 等 ("通过 双语 平行 语料库 构造 每 种 语言 的 
潜在 语义 空间 提高 和 改善 跨 语言 检索 性 能 , 实验 结果 
表明 上 述 方法 是 有 效 的 。 

基于 语言 模型 、 主 题 模 型 的 跨 语 言 信息 检索 人 研究 
也 开始 活跃 起 来 。Rahimi 等 1 利用 语言 模型 框架 实现 
跨 语言 查询 扩展 , 提高 了 跨 语 言 检 索性 能 , Ganguly 等 加 
利用 潜在 主题 对 跨 语 言 相 关 性 模型 进行 改进 ,以 帮助 
改善 目标 语言 检索 效果 。 此 后 , Wang 等 (对 基于 主 
题 模 型 的 跨 语言 信息 检索 进行 了 深入 研究 ,先后 提出 
基于 潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation， 
LDA) 主 题 模型 的 跨 语 言 伪 相关 反馈 扩展 中 基于 双 
语 主题 的 跨 语 言 伪 相关 反馈 [1， 以 及 基于 弱 相 关 主 题 
对 章 的 跨 语 言 伪 相 关 反 馈 扩 展 59,， 理 论 分 析 与 实验 结 
果 均 表明 上 述 方法 是 有 效 性 的 。 

从 相关 文献 报道 可 以 看 出 ,面向 东盟 国家 语言 的 
跨 语言 信息 检索 研究 还 鲜 有 报道 。 自 中 国 南 宁 市 作为 
中 国 -东盟 博览 会 永久 举办 地 以 来 , 中 国 与 东盟 国家 
的 政治 、 经 济 、 文 化 等 往来 更 加 频繁 和 密切 ， 面 向 东 
盟国 家 语言 的 跨 语 言 信 息 检索 和 跨 语言 信息 服务 研究 
显得 更 加 迫切， 其 重要 性 日 益 凸 显 。 为 此 , 本 文 在 上 述 
研究 成 果 的 基础 上 , 开展 面向 东盟 国家 语言 的 跨 语言 
信息 检索 研究 。 以 印尼 语 和 汉语 为 研究 对 象 , 将 矩阵 
加 权 关 联 规则 挖掘 技术 、 用 户 点 击 行为 与 查询 扩展 等 
技术 集成 应 用 于 印尼 中 跨 语言 信息 检索 ,提出 基于 算 


Dhttps://datamarket.azure.com/dataset/bing/microsofttranslator. 


阵 加 权 关 联 模 式 挖掘 的 印尼 中 跨 语 言 信 息 检索 模型 及 
实现 该 模型 的 关键 技术 ， 即 面向 跨 语 言 信 息 检 索 的 和 矩 
阵 加 权 关 联 模式 挖掘 算法 、 览 语言 查询 扩展 模型 以 及 
印尼 中 鉴 语言 信息 检索 算法 。 


2 基于 和 矩阵 加 权 关 联 模式 挖掘 的 印尼 中 器 


语言 信息 检索 模型 


2.1 设计 思想 

基于 和 矩阵 加 权 关 联 模式 挖掘 的 印尼 中 路 语言 信息 
检索 模型 基本 思想 是 : 首先 将 印尼 语 查 询 通过 机 器 翻 
译 系统 译 为 中 文 查询 , 提交 给 搜索 引擎 实现 跨 语言 检 
索 中 文 文档 , 通过 用 户 对 初 检 文 档 浏 览 点 击 下 载 行为 
确认 该 篇 文档 为 用 户 反 馈 初 检 相 关 文档 , 然后 应 用 本 
文 提 出 的 面向 跨 语言 信息 检索 的 矩阵 加 权 关 联 模式 挖 
掘 技术 从 初 检 相关 文档 中 挖掘 与 中 文 查询 相关 的 扩展 
词 实现 跨 语言 译 后 扩展 , 扩展 词 与 原 查 询 组 合 再 次 提 
交 给 搜索 引擎 检索 , 将 检索 结果 经 机 器 翻译 为 印尼 语 
文档 返回 给 用 户 。 

2.2 ”模型 结构 图 及 其 模块 功能 

根据 上 述 设计 思想 , 给 出 了 基于 甜 阵 加 权 关 联 模 
式 挖掘 的 印尼 中 跨 语言 信息 检索 模型 结构 图 ， 如 图 1 
所 示 。 该 模型 由 机 器 翻译 模块 、 搜 索引 擎 模块 、 用 户 
点 击 行为 相关 反馈 提取 模块 、 文 档 预 处 理 模块 、 面 向 
印尼 中 器 语言 检索 的 和 矩阵 加 权 关 联 规则 挖掘 模块 、 跨 
语言 查询 扩展 词 生成 模块 、 跨 语言 查询 扩展 实现 模块 
和 最 终结 果 显 示 模 块 等 8 个 模块 和 3 个 数据 库 组 成 ， 
即 初 检 相 关 文 档 数据 库 、 和 矩阵 加 权 关 联 规则 库 和 扩展 
词 库 。 

(1) 机 器 翻译 模块 : 使 用 必 应 机 器 翻译 接口 ， 即 
Microsoft Translator APIT ， 主 要 功能 是 将 用 户 提交 的 
印尼 语 查询 翻译 为 中 文 查询 ， 以 及 将 最 终 检索 结果 的 
中 文 文档 翻译 为 印尼 语文 档 提交 给 用 户 。 

(2) 搜索 引擎 模块 : 可 以 使 用 谷歌 或 百度 等 搜索 
引擎 ， 主 要 功能 是 对 译 后 的 中 文 查询 在 互联 网 上 进行 
检索 , 得 到 跨 语言 初 检 结 果 文 档 集 。 

(3) 用 户 点 击 行为 相关 反馈 提取 模块 : 捕捉 用 户 
浏览 初 检 结 果 文 档 集 时 所 产生 的 文档 下 载 行为 , 提取 
用 户 下 载 的 初 检 文 档 构建 用 户 反馈 相关 文档 集 。 
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图 1 基于 给 阵 加 权 关 联 模 式 挖掘 的 印尼 中 跨 语言 信息 检索 模型 


(4) 文档 预 处 理 模块 : 将 用 户 反馈 相关 文档 集 进 
行 中 文 分 词 、 去 停 用 词 和 提取 特征 词 等 预 处 理 , 构建 
用 户 反 馈 初 检 相关 文档 数据 库 。 

(5) 面向 印尼 中 跨 语 言 检索 的 矩阵 加 权 关 联 规则 
挖掘 模块 : 对 上 述 的 用 户 反馈 初 检 相 关 文 档 集 进行 矩 
阵 加 权 关 联 规则 控 掘 ， 主 要 挖 据 含有 原 查 询 词 项 的 矩 
阵 加 权 特 征 词 项 频繁 项 集 和 关联 规则 模式 , 构建 算 阵 
加 权 关联 规则 库 。 

(6) 器 语 言 查询 扩展 词 生成 模块 : 从 矩阵 加 权 关 联 
规则 库 中 提取 与 原 杏 询 相关 的 扩展 词 , 构建 扩展 词 库 。 

(7) 跨 语 言 查询 扩展 实现 模块 : 从 扩展 词 库 中 提 
取 中 文 扩展 词 , 将 扩展 词 和 原 查询 组 合成 新 查询 ,再 
次 提交 给 搜索 引擎 在 互联 网 中 检索 , 得 到 最 终 检索 的 
中 文 文档 。 

(8) 最 终结 果 显 示 模 块 : 将 最 终 检 索 结果 中 文 文 
档 提交 到 机 器 翻译 模块 翻译 为 印尼 语文 档 , 并 将 最 终 
检索 结果 中 文 文档 和 印尼 语文 档 返 回 用 户 。 

2.3 ”印尼 中 跨 语 言 信息 检索 模型 关键 技术 
(1) 面向 印尼 中 跨 语 言 检索 的 矩阵 加 权 关联 规则 


挖掘 


面向 印尼 中 器 语言 检索 的 矩阵 加 权 关 联 规则 控 
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基本 思想 是 : 首先 通过 用 户 点 击 行为 相关 反馈 信息 提 
取 模 块 获得 印尼 中 路 语言 初 检 结果 ， 即 用 户 相 关 反 馈 
目标 语言 文档 集 Doc™, 并 由 文档 预 处 理 模块 对 Doc” 
进行 预 处 理 , 构建 用 户 反馈 初 检 相关 文档 数据 库 ， 然 
后 结合 用 户 查 询 ， 采 用 三 次 项 集 剪 枝 策 略 ,挖掘 初 检 
相关 文档 数据 库 中 含有 用 户 查询 词 项 的 矩阵 加 权 特 征 
词 关 联 规则 , 构建 算 阵 加 权 关 联 规则 库 。 具 体 的 前 村 ! 
策略 是 : 第 一 次 剪 校 为 比较 候选 k 项 集权 值 WCWD) 和 
KIWT(k，kt1)1"1， 剪除 其 WCD)< KIWT(k 寻 1) 的 候选 
项 集 Ci; 第 二 次 是 挖掘 到 2 项 集 时 ， 剪 除 不 含 查询 项 
的 候选 2 项 集 C,, 主要 原因 是 本 文 检索 模型 只 是 挖掘 
与 原 查 询 相 关 的 频繁 项 集 和 和 矩阵 加 权 关 联 规则 , 而 认 
为 不 含 中 文 查询 词 项 的 候选 2 项 集中 的 词 项 是 与 原 
查询 不 相关 的 ,选择 在 候选 2 项 集 做 删除 处 理 是 为 了 
减少 后 续 这 类 与 原 查 询 不 相关 的 项 集 数量 ,提高 挖掘 
效率 ; 第 3 次 是 剪除 其 支持 计数 为 0 的 候选 项 集 Ci。 
上 述 控 气 思想 形式 化 为 MWARM OQT(Matrix 
Weighted Association Rule Mining with Original Query 
Terms) 算 法 。 

输入 : 目标 语言 初 检 相 关 文档 集 (Doc”), 最 小 支持 度 和 置信 度 
阅 值 WM(ms, mc), 印尼 语 用 户 查询 (0)。 

输出 : 目标 语言 特征 词 矩 阵 加 权 关 联 规则 集合 (mwAR”)。 


Begin 
let mwFI eg mwART gp 
//mwFTY 为 特征 词 矩 阵 加 权 频 繁 项 集 集合 ,mwFTY 和 mwAR™ 
(Doc™ DB)—Preprocessing(Doc™); 
// 文 档 预 处 理 模 块 对 Doc” 进行 预 处 理 ， 构 建 用 户 反馈 初 检 相 
关 文 档 数据 库 Doc”_DB。 本 模型 中 ,Doc 是 中 文 文档 , 其 预 处 理 包 
括 分 词 、 去 停 用 词 和 提取 中 文 特征 词 等 。 模 型 中 所 用 的 分 词 系统 是 
中 国 科学 院 计 算 技 术 研 究 所 研制 编写 的 汉语 词法 分 析 系 统 
ICTCLAS 。 
(Cu w(C1), neo KIWT (1, 2))—ScanForCi(Doc™ DB); 
/扫描 初 检 相关 文档 数据 库 Doc” DB, 提取 特征 词 | 候选 项 集 
C1, 计算 Ci 支持 计数 nl 及 其 权 值 w(C1) 和 KIWT(1,2) 的 值 ,.KIWT (1， 
2) 的 计算 公式 见 文 献 [17] 
7 一 {CI mwsupport(C1) 宇 ms}; 
// 从 1 候选 项 集 C1 挖掘 1 频繁 项 集 ， mwsupport(C1) 为 Ci 的 珑 
阵 加 权 支 持 度 , mwsupport(C1)=w(C1) /na 1。 
for (f=2; Ci $b k++){ 
// 挖 气 含 有 查询 项 的 矩阵 加 权 频 繁 k 项 集 (Kk 三 2) 
mwrI emweI UL 
// 频 繁 项 集 添加 到 mwF7Y 集合 
CeoFirstPruning(w(Cxi), KIWT(k-1, 月 ); 
// 比 较 候选 项 集权 值 和 KIWT 值 ， 剪除 其 W(C41)<KIWTk-1, 
月 的 候选 项 集 Ci1, KIWT(k-1, 有 的 计算 公式 见 文献 [17] 
Ci 一 CJoin (Ci1); // 候 选项 集 C1 进行 Aproiri 连接 tM 得 到 Ch 
if (k=2)then Cie—SecondPruning(C: , O°); 
// 挖 握 到 2 项 集 时 ,剪除 不 含 查询 项 的 候选 2 项 集 
(Ww(C, me KIWT (k, k+1))—ScanForC.(Doc™ DB); 
// 打 描 初 检 相 关 文 档 数据 库 Doc” DB, 统计 Ci 的 支持 计数 
nas 计算 Gi 权 值 w(Ci) 和 KIWT (kk+1) 的 值 , KIWT (kk+1) 的 计 
算 公式 见 文献 [17] 
Ci 一 ThirdPruning(CW);// 剪 除 mu 为 0 的 候选 项 集 Cli; 
Li—{ Cx | mwsupport(CA)=ms}; 
// 从 上 候选 项 集 Ci 挖掘 频繁 项 集 ， mwsupport(CW) 为 Ci 的 
矩阵 加 权 支 持 度 , mwsupport(C2)=w(Ca/(naXx 有 D0 
} 
for mwF1Y 中 每 一 个 频繁 项 集 1” do 
// 挖 握 特 征 词 矩 阵 加 权 关 联 规则 
{ 


for 77 中 每 一 对 子 项 集 J1 和 J do 
{ 
让 (WU I=7T and NI= 8)) then 
{ 
计算 mwconf (DD) 和 mwconf (1 六 了 用) 的 值 ; 
/mwconf (11 访 D) 和 mwconf (1 了 为 关联 规则 的 置信 和 度 
if mwconf (13L)=mc 
then mwARYe—mwART U {TD}; 
if mwconf (31)mc 
then mwART emwARTU {DLL}; 


Dhttp://ictclas.nlpir.org/. 
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} 


} 


output( mwAR”); /输出 含有 查询 项 的 矩阵 加 权 强 关联 规则 
End 

其 中 , 关联 规则 的 置信 度 计算 公式 [7 如 下 。 
mwconf (L131)= IIWSUDDPortD I/mwsupport(11) (1) 
mwconf (L131)= mwsupport(L, T)/mwsupport(1;) (2) 

(2) 检索 模型 中 印尼 中 路 语言 查询 扩展 模型 

本 文 检索 模型 中 ,其 译 后 查询 扩展 词 的 来 源 是 上 
述 MWARM_OQT 算法 对 目标 语言 初 检 用 户 相关 文档 
集 挖 掘 得 到 的 矩阵 加 权 关 联 规则 , 这 些 规则 的 前 件 是 
译 后 目标 语言 原始 查询 词 项 集合 (0”), 而 规则 的 后 件 
是 目标 语言 扩展 词 项 目 集合 (£7™), 通过 矩阵 关联 规 
则 的 置信 和 度 mwconf 值 确定 了 查询 词 项 与 扩展 词 项 的 
关联 程度 。 因 此 ,其 跨 语言 查询 扩展 模型 (Cross 
Language Query Expansion Model, CLQEM) 描 述 如 公 
式 (3) 所 示 : 

CLQEM=(O™, ET™, W,, Wer) (3) 

其 中 ， 

O07={q1, 92,…, 4n}, 9n(n 宇 1) 为 查询 词 项 
ET7={, by …, ty), bi(m 宇 1) 为 扩展 词 项 
OF > ETY(mwsupport=ms, mwconf=mc) 
0.5xt )xlog N [19] 
max(1f, ) df, 
Wer=max(mwconf ) 

在 上 述 扩 展 模型 中 ,，W, 表示 译 后 原 查 询 OY 的 查 
询 项 9 权 值 ，#f 为 查询 项 9 在 查询 中 的 初始 频率 ， 
max(tf) 表 示 所 有 查询 项 初始 频率 中 的 最 高 者 , df 为 包 
含 查询 项 4 的 初 检 文 档 数 ,，N 为 初 检 相 关 文档 总 数 。 
Wsr 表 示 来 自 矩 阵 关联 规则 0 ?> 57 的 目标 语言 查 
询 扩展 词 权 值 ， 其 值 等 于 矩阵 关联 规则 的 置信 度 值 。 
Wer 表达 式 表 明 当 扩展 词 重复 出 现在 不 同 的 和 矩阵 关联 
规则 时 ， 就 会 存在 不 同 的 置信 和 度 ,， 取 其 置信 度 最 高 
作为 该 扩展 词 权 值 。 

(3) 基于 抢 阵 加 权 关 联 模式 挖掘 的 印尼 中 路 语言 
信息 检索 算法 

在 本 文 跨 语 言 检 索 模 型 中 ， 基 于 矩阵 加 权 关 联 模 
式 挖掘 的 印尼 中 跨 语言 信息 检索 基本 思想 是 : 采用 跨 
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语言 两 次 检索 策略 ,首先 将 印尼 语 查 询 通过 机 器 翻译 
系统 译 为 中 文 查询 ,并 提交 搜索 引擎 在 互联 网 中 检索 


中 文 文档 ,通过 用 户 点 击 下 载 行为 获取 路 语言 用 户 反 
馈 初 检 相 关 文档 集 , 调用 MWARM_OQT 算法 对 用 户 
反馈 初 检 相关 文档 集 进行 挖掘 ， 得 到 与 原 查 询 相关 的 
矩阵 加 权 关 联 规则 ， 从 关联 规则 中 提取 扩展 词 实现 路 
语言 查询 译 后 扩展 , 将 扩展 词 和 原 查 询 组 合 为 新 查询 
再 次 提交 搜索 引擎 检索 中 文 文档 , 得 到 的 最 终 检索 结 
果 通 过 机 需 翻 译 系统 译 为 印尼 语文 档 返 回 给 用 户 。 上 
述 思 想 形 式 化 为 ICCLIR MWAR (Indonesian-Chinese 
Cross Language Information Retrieval Based on Matrix- 
Weighted Association Rules) 算 法 。 

输入 : 印尼 语 用 户 查询 (050)， 最 小 支持 度 和 置信 度 阀 值 (nrs, mc)。 

输出 : 查询 扩展 后 的 跨 语言 检索 结果 (印尼 语文 档 和 中 文 文档 )。 

Begin 

OExecMTranslate (O°); 

// 将 印尼 语 用 户 查询 OY( 即 源 语言 查询 ) 提 交 给 机 器 翻译 系统 
(Microsoft translator APT), 经 过 翻译 后 得 到 中 文 查询 OZ( 即 目标 语言 
查询 ), 采用 ICTCLAS 系统 完成 译 后 中 文 查询 OY 预 处 理 。 

FirstRDoc—FirstRetrieval (O™, W,); 

// 将 翻译 后 的 中 文 查询 提交 给 搜索 引擎 ， 如 百度 或 谷歌 等 , 通 
过 互联 网 检索 中 文 文档 , 得 到 跨 语言 初 检 结 果 中 文 文档 集 。 

Doc™—UserClickDowdload (FirstRDoc); 

/ 根据 用 户 浏览 初 检 结 果 文 档 集 FirstRDoc 的 点 击 、 浏 览 、 下 
载 行为 ， 构建 用 户 反 馈 初 检 相 关 文 档 集 Doc”。( 如 果 存 在 用 户 对 初 
检 文 档 的 点 击 下 载 行为 ， 则 认为 该 篇 文档 与 原 查 询 是 相关 的 ， 应 该 
从 初 检 文 档 集中 提取 该 篇 文档 )。 

mwAR™ 二 MWARM OQT (Doc™ , ms, mc, O™); 

// 调 用 用 MWARM OQT 算法 挖掘 目标 语言 特征 词 和 矩阵 加 权 关 
联 规则 mwA4R™Y， 并 构建 规则 库 。 

(ET Wer)}*—Get Exp_Term (mwAR™); 

/从 mwAR™ 集合 中 提取 目标 语言 扩展 词 E7", 根据 公式 (2) 计 
算 扩 展 词 权 值 Wer。 

TL Doc«—SecondRetrieval (0, ET™); 

// 将 原 查 询 和 扩展 词组 合 再 次 在 互联 网 中 检索 目标 语言 文档 ， 
得 到 最 终 目 标语 言 文 档 7ZL_Doc， 即 中 文 文档 。 

SL Doc*-ExecMTranslate (TL_Doo); 

// 将 目标 语言 文档 TL_Doc( 中 文 文档 ) 机 器 翻译 为 源 语 言 文 档 SL 
_Doc( 印 尼 语 文档 )。 

outputToUser (TL_Doc, SL _Doo); 

// 将 查询 扩展 后 检索 结果 中 文 文档 和 印尼 文档 返回 给 用 户 。 

End 


3 实验 设计 及 其 结果 分 析 
根据 上 述 理论 分 析 和 所 给 的 模型 结构 图 , 编写 基 
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于 向 量 空间 模型 和 抢 阵 加 权 关 联 模式 挖掘 的 印尼 中 跨 
语言 信息 检索 模型 源 程序 进行 实验 。 实 验 的 硬件 环境 
是 : Intel(R) Core(TM) i17-3770 CPU @3.4GHz 3.4GHz 
台式 电脑 ， 内 存 8.0GB, 硬盘 1TB; 软件 环境 为 : 
Windows 7+VC#+SQL Server。 

3.1 数据 集 及 其 预 处 理 

采用 日 本 情报 信息 研究 所 主办 的 多 国语 言 处 理 国 
际 评测 会 议 上 的 跨 语言 信息 检索 标准 数据 测试 集 
NTCIR-5 CLIR 的 Economic Daily News 2000 年 中 文 
新 闻 文 本 作为 本 实验 语 料 , 共计 79 380 篇 中 文 文本 信 
上 息 。NTCIR-5 CLIR 有 查询 集 、 文 档 测试 集 以 及 结 
集 。 其 中 , 查询 集 有 50 个 查询 主题 , 分 有 TITLE、 
DESC、NARR 和 CONC 等 4 种 类 型 , 本 文 实验 选择 
TITLE 和 DESC 类 型 , TITLE 类 型 查询 主题 以 名 词 和 名 
词性 短语 简要 描述 , 属于 短 查 询 ; DESC 类 型 以 句子 形 
式 简 要 描述 查询 主题 , 属于 长 查询 。 其 结果 集 有 Rigid 
和 Relax 等 两 种 评价 标准 ，Rigid 标准 是 指 其 答案 都 是 
与 原 查 询 相 关 或 高 度 相关 的 ; Relax 标准 是 指 高 度 相 
关 、 相 关 或 部 分 相关 的 。 

为 了 进行 本 文 印 尼 中 器 语言 信息 检索 模型 的 实 
验 , 邀请 翻译 机 构 的 专业 翻译 人 士 先 将 NTCIR-5 
CLIR 中 文 版 50 个 查询 主题 人 工 翻译 为 印尼 语 ， 再 进 
行 查询 。 

3.2 ”基准 实验 及 其 实验 评价 指标 

为 了 验证 本 文 提出 的 印尼 中 跨 语言 信息 检索 模型 
的 有 效 性 ， 选 择 中 文 单 语言 检索 (Monolingual 
Retrieval Baseline, MRB) 和 没有 查询 扩展 的 印尼 中 跨 
语言 检索 (Cross-language Retrieval Baseline, CLRB), 
以 及 传统 的 基于 伪 相 关 反 馈 的 印尼 中 跨 语言 信息 检索 
算 法 所 (Cross-Language Retrieval Using Pseudo 
Relevance Feedback, CLR_PRF) 作 为 实验 基准 , 与 本 文 
检索 模型 的 检索 性 能 进行 比较 和 分 析 。 

上 述 三 种 基准 的 检索 结果 是 : MRB 基准 是 用 中 文 
查询 直接 检索 中 文 文档 得 到 的 检索 结果 ; CLRB 是 印 
尼 查 询 经 机 器 翻译 系统 翻译 为 中 文 查询 检索 中 文 文档 
得 到 的 检索 结果 ,， 即 传统 的 跨 语 言 信息 检索 结果 ; 
CLR_PRF 基准 是 在 如 下 参数 设置 下 实现 跨 语言 查询 
扩展 后 再 次 检索 得 到 的 结果 ， 其 参数 设置 (与 文献 [2] 


致 ) 是 : 提取 跨 语 言 前 列 初 检 文 档 20 篇 构建 初 检 相 
关 文 档 集 , 提取 前 列 权 值 (降序 排列 ) 的 20 个 特征 词 为 
扩展 词 。 
采用 尺 - 查 准 率 (R_prec)、P@10 和 P@20 作为 实验 
评价 指标 。,R- 查 准 率 (R-prec) 是 当 R 个 文档 被 检索 后 所 
计算 的 查 准 率 , 其 中 R 是 指 对 应 于 某 个 查询 在 文档 集 
合 中 相关 文档 数 , 不 强调 文档 结果 集中 文档 的 排序 情 
况 , 由 于 NTCIR-5 CLIR 测试 集中 不 同 查询 主题 的 相 
关 文 档 数 差别 比较 大 , 故 该 指标 值 显 得 更 有 意义 和 评 
价 价值 。 

3.3 ”实验 结果 及 其 分 析 
运行 本 文 检索 模型 源 程序 , 将 该 模型 与 基准 算法 


表 1 三 种 基准 算法 跨 语言 检索 实验 结果 


MRB、CLRB 和 CLR_PRF 在 NTCIR-5 CLIR 测试 集 
上 进行 文本 检索 , 对 其 检索 性 能 进行 比较 和 分 析 。 同 
时 ,分 析 和 天 阵 加 权 支 持 度 和 置信 度 参 数 对 本 文 模 型 检 
索性 能 的 影响 。 

(1) 基准 实验 结果 及 分 析 

为 了 与 本 文 检索 模型 的 检索 性 能 比较 ， 先 运行 
MRB 、CLRB 、CLR_PRF 等 三 个 基准 源 程序 ， 提交 
NTCIR-5 CLIR 的 50 个 查询 主题 的 TITLE 和 DESC 部 
分 的 中 文 查询 进行 中 文 单 语言 检索 基准 实验 ， 以 及 印 
尼 语 查询 进行 印尼 中 跨 语 言 检 索 和 传统 的 基于 伪 相 关 
反馈 的 印尼 中 器 语言 检索 基准 实验 , 得 到 基准 实验 结 
果 , 如 表 1 所 示 。 


查询 类 型 ”评测 类 型 ”评价 指标 MRB CLRB CLRB 占 MRB (%) CLR PRF CLR PRF 占 MRB (%) CLR_PRF 比 CLRB 提高 (%) 
R prec 0.258 0.1313 50.89 0.1278 49.53 -2.67 
Relax p@10 0.2292 0.0792 34.55 0.1083 47.25 36.74 
p@20 0.1542 0.0625 40.53 0.0792 51.36 26.72 
TITLE 
R prec 0.1919 0.1442 75.14 0.1113 58.00 -22.82 
Rigid p@10 0.1417 0.0458 32.32 0.0625 44.11 36.46 
p@20 0.0979 0.0333 34.01 0.0479 48.93 43.84 
R_prec 0.227 0.1205 53.08 0.0354 15.59 -70.62 
Relax p@10 0.2375 0.1333 56.13 0.0958 40.34 -28.13 
p@20 0.1667 0.1 59.99 0.0979 58.73 -2.10 
DESC 
R_prec 0.1867 0.1226 65.67 0.0587 31.44 -52.12 
Rigid p@10 0.15 0.0542 36.13 0.0458 30.53 -15.50 
p@20 0.1063 0.0458 43.09 0.0521 49.01 13.76 


从 表 1 可 以 看 出 , 传统 的 跨 语言 检索 CLRB 基准 


查询 后 , 受 查 询 翻 译 质量 的 影响 , 查询 主题 漂移 比较 


只 达到 了 单 语言 检索 基准 MRB 的 32.32% 至 75.14%， 
而 传统 的 基于 伪 相 关 反 馈 的 印尼 中 跨 语 言 信 息 检 索 
CLR_PRF 检索 效果 更 差 , 才 达 到 了 单 语言 基准 MRB 
的 15.59% 至 58.73%。 与 CLRB 基准 比较 , CLR_PRF 
检索 结果 的 各 个 评价 指标 值 中 , 大 多 数 比 CLRB 检索 
结果 的 指标 值 减 少 了 , 减少 幅度 最 大 为 70.62%( 即 
DESC 类 查询 、Relax 评测 类 型 的 R_prec 值 ); 只 有 少 
数 指标 值 有 所 增加 ， 提 高 幅度 最 大 是 p@20 指标 
(TITLE 类 查询 、Rigid 评测 类 型 )， 达 到 43.84%。 

表 1 实验 结果 表明 ,印尼 中 路 语言 基准 ( 即 传统 的 
跨 语言 检索 ) 的 检索 性 能 明显 地 低 于 单 语言 的 基准 检 
索性 能 ， 有 些 指标 值 最 低 只 达到 15.59%。 说 明 在 传统 
的 跨 语言 信息 检索 中 ,印尼 查询 经 过 机 器 翻译 为 中 文 


严重 ， 即 其 检索 出 的 相关 文档 比较 少 ， 而 与 查询 非 相 
关 的 文档 比较 多 ,而 在 查询 主题 漂移 如 此 严重 的 情况 下 
进行 伪 相关 反馈 查询 扩展 的 跨 语言 检索 ， 导 臻 其 检索 
性 能 更 差 , 因此 , CLR_PRF 的 检索 性 能 不 如 CLRB 好 。 

(2) 本 文 跨 语言 检索 模型 与 基准 算法 的 检索 性 能 
比较 

运行 本 文 模型 源 程序 , 提交 NTCIR-5 CLIR 的 50 
个 查询 主题 的 TITLE 部 分 和 DESC 部 分 的 印尼 语 查 询 
进行 印尼 中 跨 语言 检索 实验 , 在 支持 度 变化 和 置信 和 度 
变化 两 种 情况 下 与 上 述 3 个 基准 (MRB、CLRB 和 
CLR_PRP) 进 行 检索 性 能 比较 和 分 析 ， 其 检索 结果 的 
R_prec、p@10 和 p@20 值 分 别 如 表 2 和 表 3 所 示 。 本 
文 的 模型 实验 参数 设置 如 下 : 提取 路 语言 初 检 文档 前 
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列 100 篇 文档 提交 给 用 户 , 用户 进行 点 击 、 浏 览 、 下 
载 等 行为 后 确定 初 检 相 关 文 档 。 为 了 实验 方便 , 将 初 
检 前 列 中 含有 已 知 结果 集 的 100 篇 相关 文档 视 为 用 户 
在 点 击 、 浏 览 后 ,下 载 的 相关 反馈 文档 信息 。 另 外 , 所 
挖掘 的 项 集 长 度 为 3, 支持 度 变 化 时 的 实验 参数 为 置 
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信和 度 mc=0.01, 支持 度 ms 分 别 为 0.5、0.55、0.6、0.65、 
0.7 和 0.75 时 得 到 检索 结果 的 R_prec、p@10 和 p@20 
值 ， 取 平均 值 作为 其 在 表 2 的 值 ， 置 信和 度 变 化 时 的 实 
验 参数 : 支持 度 ms=0.5, 置信 和 度 mc 分 别 为 0.008、 
0.01、0.05、0.08 和 0.1 时 得 到 结果 如 表 3 所 示 。 


表 2 支持 度 变化 时 本 文 检 索 模 型 与 基准 算法 的 检索 性 能 比较 


查询 类 型 ”评测 类 型 ”评价 指标 ”本文 检索 模型 ”本 文 模型 占 MRB (%) 


本 文 模型 比 CLRB 提高 (%) ”本 文 模型 比 CLR_PRF 提高 (%) 


R_prec 0.2355 91.28 79.36 84.27 
Relax p@10 0.1410 61.52 78.03 30.19 
p@20 0.1056 68.46 68.91 33.33 
TITLE 
R prec 0.2176 113.39 50.90 95.51 
Rigid p@10 0.0903 63.70 97.09 44.48 
p@20 0.0653 66.67 96.00 36.33 
R prec 0.2383 104.99 97.79 573.16 
Relax p@10 0.1882 79.24 41.19 96.45 
p@20 0.1424 85.41 42.38 45.45 
DESC 
R prec 0.2321 124.32 89.31 295.40 
Rigid p@10 0.0896 59.72 65.28 95.63 
p@20 0.0764 71.87 66.81 46.64 


表 3 置信 和 度 变化 时 本 文 检索 模型 与 基准 算法 的 检索 性 能 比较 


查询 类 型 评测 类 型 ”评价 指标 ”本文 检 索 模型 ”本 文 模型 占 MRB (%) ”本 文 模型 比 CLRB 提高 (%) ”本 文 模型 比 CLR_PRF 提高 (%) 
R prec 0.2351 91.14 79.09 83.99 
Relax p@10 0.1392 60.72 75.73 28.51 
p@20 0.1021 66.21 63.36 28.91 
TITLE 
R _prec 0.2433 126.78 68.72 118.60 
Rigid p@10 0.0867 61.16 89.21 38.66 
p@20 0.0633 64.70 90.21 32.23 
R prec 0.2295 101.09 90.44 548.25 
Relax p@10 0.1842 T7733 38.17 92.25 
p@20 0.1371 82.23 37.08 40.02 
DESC 
R prec 0.2133 114.24 73.96 263.34 
Rigid p@10 0.0942 62.77 73.73 105.59 
p@20 0.0767 72.14 67.42 47.18 


从 表 2 实验 结果 可 知 ， 当 支持 度 变化 时 ， 本文 检 
索 模 型 检索 结果 的 各 个 评价 指标 值 是 单 语言 检索 基准 
MRB 的 59.72%( 最 低 ) 至 124.32%( 最 高 ) 范 围 ， 比 跨 语 


2 还 表明 , 长 查询 类 型 DESC 的 检索 效果 比 短 查 询 类 
型 TITLE 的 好 ,对 于 长 查询 类 型 DESC, 本 文 检索 模 
型 检索 结果 的 Rigid 类 型 的 R_prec 值 比 单 语言 检索 的 


言 基 准 算法 CLRB 检索 结果 的 各 个 指标 值 提 高 
41.19%( 最 低 ) 至 97.79%( 最 高 ) 范 围 ; 比 基 于 伪 相 关 反 
馈 的 印尼 中 跨 语言 检索 基准 CLR_PRF 的 提高 30.19% 
(最 低 ) 至 573.16%( 最 高 ) 范 围 , 效果 比较 显著 。 另 外 , 表 
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提高 了 24.32%( 即 (0.2321-0.1867)/0.1867)。 

表 3 实验 结果 表明 ， 当 置信 度 阐 值 变 化 时 ， 本文 
检索 模型 检索 结果 的 各 个 评价 指标 值 占 单 语言 检索 基 
准 MRB 的 60.72% 至 126.78% 范 围 ， 最 好 的 情况 是 其 


长 查询 类 型 DESC 的 R_prec 值 比 单 语言 检索 的 提高 了 


14.25%( 即 Rigid 类 型 的 R_prec 值 : (0.2133-0.1867)/ 
0.1867)。 与 跨 语言 基准 算法 CLRB 比较 , 本文 检索 模 


型 检索 结果 的 各 个 评价 指标 值 提高 37.08% 至 90.44%,， 
同时 ， 比 CLR_PRF 基准 的 提高 了 28.51% 至 548.25%， 
效果 比较 显著 。 另 外 , 表 3 还 表明 ,长 查询 类 型 DESC 


表 4 文 持 度 变化 时 本 文 跨 语言 检索 模型 的 检索 性 能 (mc=0.01) 
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的 检索 效果 比 短 查 询 类 型 TITLE 的 好 。 
(3) 支持 度 和 置信 度 对 本 文 模型 的 检索 性 能 影响 
在 不 同 的 矩阵 加 权 支 持 度 阔 值 ms 和 置信 度 阔 值 


1c 下 ,本文 印尼 中 跨 语 言 检 索 模 型 检索 性 
中 和 矩阵 加 权 置 信和 度 mc=0.01) 和 表 $( 其 中 抢 阵 加 权 支 持 
度 ms=0.5) 所 示 O 


FE 能 如 表 4( 其 


a a 和 矩 阵 加 权 支 持 度 ms 
查询 类 型 “评测 类 型 评价 指标 
0.5 0.55 0.6 0.65 0.7 0.75 
R prec 0.2359 0.2361 0.234 0.2328 0.2318 0.2424 
Relax p@10 0.1417 0.1625 0.1417 0.1417 0.1417 0.1167 
p@20 0.1042 0.1104 0.1021 0.1021 0.1000 0.1146 
TITLE 
R prec 0.2443 0.2443 0.2032 0.202 0.2008 0.211 
Rigid p@10 0.0875 0.1083 0.0875 0.0875 0.0875 0.0833 
p@20 0.0646 0.0708 0.0625 0.0625 0.0604 0.0708 
R prec 0.2399 0.2376 0.2367 0.2371 0.2332 0.2455 
Relax p@10 0.1875 0.1917 0.1792 0.1875 0.1875 0.1958 
Se p@20 0.1396 0.1438 0.1458 0.1438 0.1396 0.1417 
DE 
R prec 0.2443 0.2421 0.2413 0.242 0.2056 0.2173 
Rigid p@10 0.0958 0.0917 0.0875 0.0875 0.0833 0.0917 
p@20 0.0771 0.0771 0.0792 0.0771 0.0729 0.075 
表 5 置信 和 度 变 化 时 本 文 跨 语言 检索 模型 的 检索 性 能 (ms =0.5) 
en 本 本 和 矩阵 加 权 置 信 度 mc 
查询 类 型 ”评测 类 型 ”评价 指标 2 
0.008 0.01 0.05 0.08 0.1 
R prec 0.2362 0.2359 0.2349 0.2345 0.2342 
Relax p@10 0.1417 0.1417 0.1417 0.1375 0.1333 
p@20 0.1042 0.1042 0.1021 0.1 0.1 
TITLE 
R prec 0.2445 0.2443 0.2434 0.2425 0.2418 
Rigid p@10 0.0875 0.0875 0.0875 0.0875 0.0833 
p@20 0.0646 0.0646 0.0625 0.0625 0.0625 
R prec 0.2399 0.2394 0.2401 0.2156 0.2124 
Relax p@10 0.1875 0.1875 0.1875 0.1792 0.1792 
p@20 0.1396 0.1375 0.1396 0.1354 0.1333 
DESC 
R prec 0.2443 0.1402 0.2444 0.2204 0.2171 
Rigid p@10 0.0958 0.0958 0.0958 0.0917 0.0917 
p@20 0.0771 0.0771 0.0771 0.0771 0.075 


从 表 4 和 表 $ 可 以 看 出 , 对 于 TITLE 和 DESC 类 
型 查询 ， 随 着 和 矩阵 加 权 支 持 度 或 置信 和 度 阔 值 的 不 断 提 
高 , 本文 检 索 模 型 检索 结果 的 R_prec、p@10 和 p@20 
值 变化 比较 缓慢 ， 有 些 叶 现下 降 的 趋势 。 主 要 原因 分 


关联 规则 中 获得 的 扩 


析 如 下 : 在 查询 主题 严重 漂移 的 情况 下 ， 随 着 矩阵 加 
权 支 持 度 或 置信 度 闵 值 的 不 断 提高 ,从 和 矩阵 加 权 词 间 
展 词 逐渐 减少 ,导致 跨 语言 检索 
性 能 下 降 ; 反之 ， 当 支持 度 或 者 置信 度 阔 值 下 降 时 ， 
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检索 系统 获得 的 扩展 词 会 多 些 , 跨 语 言 检 索性 能 得 到 
改善 和 提升 。 但 是 ， 当 扩展 词 增多 时 ,虚假 的 扩展 词 即 
噪音 出 现 的 机 会 也 增多 ， 此 时 也 会 导致 检索 性 能 降 
低 。 因 此 ， 如 何 确定 一 个 合适 的 支持 度 或 置信 度 阔 值 ， 
是 值得 研究 的 问题 。 

(4) 实验 结果 分 析 

理论 分 析 和 实验 结果 表明 , 与 单 语言 检索 基准 
MRB 、 传统 的 跨 语 言 检 索 基 准 CLRB 和 传统 的 基于 伪 
相关 反馈 的 跨 语言 查询 算法 CLR_PRF 比较 , 本 文 提 
出 的 印尼 中 跨 语言 检索 模型 能 有 效 地 减少 查询 主题 漂 
移 问 题 , 其 检索 性 能 获得 了 很 大 的 改善 和 提高 。 表 2 
和 表 3 实验 结果 表明 ,其 检索 结果 的 R_prec、p@10 
和 p@20 值 均 达到 单 语言 检索 基准 MB 的 60% 以 上 ， 
最 好 的 情况 是 其 R_prec 值 比 单 语 言 检 索 提 高 了 
24.32%。 特 别 地 ， 其 检索 结果 比 跨 语言 检索 基准 CLRB 
和 CLR_PRF 的 好 , 提高 最 大 幅度 达到 548.25%。 这些 
实验 结果 表明 , 本文 提出 的 印尼 中 跨 语言 信息 检索 模 
型 是 有 效 的 ， 能 改善 和 提高 跨 语言 信息 检索 性 能 。 其 
主要 原因 分 析 如 下 : 在 跨 语言 信息 检索 中 , 查询 翻译 
结果 对 跨 语言 检索 结果 影响 较 大 ,常常 导致 跨 语言 初 
检 结 果 质 量 不 如 单 语 言 的 初 检 结 果 , 即 出 现 严 重 的 查 
询 主题 漂移 问题 ， 而 将 用 户 浏 览 、 点击 、 下 载 行为 , 矩 
阵 加 权 关 联 模式 挖掘 与 查询 扩展 等 技术 融合 应 用 到 印 
尼 中 跨 语 言 信息 检索 模型 ， 可 以 获得 与 原 查 询 最 相关 
的 反馈 信息 ,通过 矩阵 加 权 关 联 规 则 挖掘 得 到 与 原 查 
询 相关 的 扩展 词 实现 跨 语言 查询 扩展 ， 可 极 大 减少 跨 
语言 检索 中 存在 的 严重 主题 漂移 问题 ， 提 高 印尼 中 跨 
语言 检索 性 能 。 

同时 ,和 抢 阵 加 权 支 持 度 和 置信 度 对 本 文 的 印尼 中 
跨 语言 信息 检索 模型 的 检索 性 能 是 有 影响 的 ,， 矩阵 加 
权 支 持 度 或 置信 和 度 过 高 , 会 遗漏 一 些 与 原 查 询 相 关 的 
扩展 词 ， 导 致 跨 语 言 查询 扩展 性 能 降低 ; 反之 ， 如果 
其 过 低 , 与 原 查 询 不 相关 的 扩展 词 会 出 现 或 增多 , 严 
重 的 情况 会 导致 新 的 查询 主题 漂移 。 因 此 ， 如 何 取得 
一 个 合适 的 支持 度 和 置信 和 度 阔 值 是 值得 研究 的 课题 。 


4 结 语 


随 着 中 国 和 东盟 国家 各 个 领域 的 交流 日 益 加 深 ， 
针对 东盟 国家 语言 的 跨 语言 信息 检索 与 跨 语言 信息 服 
务 人 研究 显得 迫切 和 重要 。 本 文 以 印尼 语 和 汉语 为 研究 
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对 象 , 将 用 户 点 击 行为 与 矩阵 加 权 关 联 模式 挖掘 融合 
引入 印尼 中 跨 语 言 信息 检索 模型 ,阐述 了 该 模型 实现 
的 关键 技术 ,实验 结果 表明 , 本 文 所 提 的 模型 是 有 效 
的 , 能 减少 查询 主题 漂移 , 解决 了 跨 语言 信息 检索 长 
期 存在 的 严重 主题 漂移 问题 , 提高 和 改善 印尼 中 跨 语 
言 信息 检索 性 能 , 对 长 查询 的 检索 效果 更 好 。 

由 于 搜索 引擎 的 研究 范围 广 以 及 要 考虑 的 因素 比 
较 多 , 本 文 的 实验 工作 是 在 基于 向 量 空间 模型 的 跨 语 
言 检索 系统 中 进行 的 ,是 模拟 实验 。 下 一 步 研 究 重点 
是 : 将 该 检索 模型 实用 化 , 开发 搜索 引擎 环境 下 实用 
的 印尼 中 跨 语言 信息 检索 系统 ， 同 时 , 深入 研究 矩阵 
加 权 关 联 模式 挖 气 参 数 对 印尼 中 蜂 语 言 检 索性 能 的 
影响 , 找 出 其 变化 的 规律 , 以便 推广 到 实际 系统 中 。 


(致谢 : 感谢 匿名 外 审 专家 以 及 编辑 部 的 修改 意见 . ) 
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Cross Language Information Retrieval Model Based on 
Matrix-weighted Association Patterns Mining 


Huang Mingxuan 
(Guangxi Key Laboratory Cultivation Base of Cross-border E-commerce Intelligent Information Processing, 
Guangxi University of Finance and Economics, Nanning 530003, China) 
(Department of Computer Science, Guangxi University of Finance and Economics, Nanning 530003, China) 


Abstract: [Objective] The purpose of this paper is to solve the query drift issue facing cross language information 
retrieval. It proposes a new model to retrieve Chinese documents with Indonesian queries. [Methods] The new model 
integrated the algorithms of matrix-weighted association patterns mining, query expansion, as well as user 
click-download behaviors. [Results] The R_prec, p@10 and p(@20 values of the proposed model were higher than the 
60% benchmark of the monolingual retrieval on the CLIR NTCIR-S data set. These results were 37% higher than cross 
language retrieval baseline and 28% higher than the existing algorithms based on pseudo relevance feedback. 
[Limitations] The proposed model was only examined in the cross language retrieval system built with the vector space 
model, which needs to be done with the real world search engines. [Conclusions] The proposed model could effectively 
reduce query drift in cross language retrieval, and retrieve more relevant Chinese documents with Indonesian long 
queries. 

Keywords: Click Behavior Association Patterns Mining Indonesian-Chinese Cross Language Retrieval Model 
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HighWire Press 收购 Semantico 


学 术 出 版 公司 HighWire Press 于 近日 宣布 成 功 收购 Semantico, Semantico 是 一 家 为 学 术 出 版 市 场 提 供 技 术 和 服务 的 私企 。 
这 项 收购 将 使 得 HighWire 提高 其 技术 创新 能 力 ,团队 变 得 更 加 强大 , 产品 组 合 变 得 更 加 丰富 。 

“创新 和 以 客户 为 中 心 是 HighWire 的 核心 , Semantico 解决 方案 集 和 整个 团队 的 加 入 ,提高 了 我 们 的 产品 服务 能 力 ， 有 助 
于 我 们 服务 于 整个 行业 。”HighWire CEO Dan Filby 说 :“ 这 次 收购 也 符合 我 们 公司 的 长 期 增长 和 价值 创造 战略 。” 
Semantico 董事 长 兼 创始 人 Richard Padley 补充 : “我 们 的 团队 能 够 加 入 到 HighWire, 我 感到 非常 兴奋 。 整 合 后 更 大 规模 的 
组 织 将 有 更 强 的 服务 能 力 , 将 为 当前 和 未 来 的 出 版 商 带 来 巨大 的 价值 。” 

HighWire 的 创新 解决 方案 包括 : 

(1) JCore: 行业 领先 、 同 类 产品 中 最 佳 的 开放 式 期 刊 平台 ; 

(2) Folio: 针对 学 术 研究 的 动态 电子 书 平 台 ; 

(3) Scolaris: 针对 多 样 化 、 专 业 化 内 容 进行 了 优化 的 综合 发 布 解决 方案 ; 

(4) SAMS Sigma: 基于 云 的 、 业 界 领先 的 、 与 访问 管理 集成 的 身份 管理 解决 方案 ; 

(5) BenchPress: 在 线 投稿 和 同行 评议 跟踪 系统 ; 

(6) Impact and Usage Vizors: 可 视 化 分 析 工 具 ， 提供 无 与 伦比 的 洞察 力 , 为 基于 证 据 的 出 版 决策 提供 支持 ; 

斯 坦 福 大 学 图 书馆 员 、HighWire 董事 会 成 员 兼 学 术 顾 问 Mike Keller 表示 :“HighWire 继续 为 客户 提供 更 高 的 价值 ,并且 
这 次 收购 将 有 望 进一步 促进 他 们 作为 行业 顶尖 出 版 技术 提供 商 的 努力 。” 


(编译 自 : http://home.highwire.org/news/highwire-press-acquires-semantico) 
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